La Biblia de la IA领域信息情报检索

涵盖人工智能状态的国际科学技术出版物

通过图神经网络进行恶意软件家族分析的序列特征提取

Sequence Feature Extraction for Malware Family Analysis via Graph Neural Network

恶意软件对我们的设备和生活造成了很大的危害。我们迫切希望了解恶意软件的行为及其造成的威胁。恶意软件的大多数记录文件都是可变长度的、带有时间戳的基于文本的文件,例如事件日志数据和动态分析配置文件。利用时间戳,我们可以将这些数据分类为基于序列的数据,以便进行后续分析。然而,处理可变长度的基于文本的序列很困难。此外,与自然语言文本数据不同,信息安全中的大多数序列数据都具有特定的属性和结构,例如循环、重复调用、噪声等。为了深入分析 API 调用序列及其结构,我们使用图来表示序列,这可以进一步研究信息和结构,例如马尔可夫模型。因此,我们设计并实现了一个注意力感知图神经网络 (AWGCN) 来分析 API

自动量子电路

Auto Quantum Circuits

«AutoQML,自组装电路,超参数化量子 ML 平台,使用 cirq、tensorflow 和 tfq。数以万亿的可能的量子比特注册表、门组合和矩序列,随时可以适应您的 ML 流程。在这里,我展示了气候变化、詹姆斯韦伯太空望远镜和微生物学视觉应用……[到目前为止,根据我的指标混合,具有 16 个量子比特和 [ YY ] - [ XX ] - [CNOT] 门序列的电路表现最佳...]。

联邦学习:医疗应用中的问题

Federated Learning: Issues in Medical Application

在本演讲中,将简要概述使联邦学习在现实世界中完美发挥作用的当前问题。它们与数据/系统异构性、客户端管理、可追溯性和安全性有关。此外,我们还介绍了我们目前正在开发的模块化联邦学习框架,以试验各种技术和协议来寻找上述问题的解决方案。该框架将在开发完成后向公众开放。

CNN 解释器:通过交互式可视化学习卷积神经网络

CNN Explainer: Learning Convolutional Neural Networks with Interactive Visualization

CNN Explainer 紧密集成了总结 CNN 结构的模型概述和按需,动态的可视化解释视图,帮助用户理解 CNN 的底层组件。通过跨抽象层次的平滑过渡,我们的工具使用户能够检查低级数学运算和高级模型结构之间的相互作用。

单词和字符之间:NLP 中开放词汇建模和标记化的简史

Between words and characters: A Brief History of Open-Vocabulary Modeling and Tokenization in NLP

在本次调查中,我们通过展示如何提出和评估基于学习分割的单词和字符混合方法以及基于子词的方法,将前神经和神经时代的几条工作线联系起来。我们得出的结论是,对于所有应用程序来说,可能永远不会有万能的解决方案,而且认真考虑标记化对于许多应用程序来说仍然很重要

科学可视化:Python + Matplotlib

Scientific Visualization: Python + Matplotlib

Python 科学可视化领域非常庞大。它由无数的工具组成,从最通用和最广泛使用的工具到更专业和更机密的工具。其中一些工具是基于社区的,而另一些则由公司开发。有些是专门为网络制作的,有些只适用于桌面,有些处理 3D 和大数据,而另一些则针对完美的 2D 渲染。

数据科学简介:从头开始学习 Julia 编程、数学和数据科学

Introduction to Datascience: Learn Julia Programming, Math & Datascience from Scratch

在我的视频系列《Julia 数据科学》获得一些关注后,我鼓起勇气写了这本书。这也是在 Julia 语言本身喜欢了一条关于决策树的推文之后。所以我想为什么不给它更多呢?

基于道德的自动决策系统审计:干预点和政策影响

Ethics-based auditing of automated decision-making systems: intervention points and policy implications

组织越来越多地使用自动决策系统 (ADMS) 来为影响人类及其环境的决策提供信息。虽然使用 ADMS 可以提高决策过程的准确性和效率,但它也伴随着道德挑战。不幸的是,当前用于监督人类决策的治理机制在应用于 ADMS 时往往会失败。

人工智能与技能的未来,第 1 卷

AI and the Future of Skills, Volume 1

经合组织启动了人工智能和技能的未来项目,以开发一个可以评估人工智能和机器人技术的能力及其对教育和工作的影响的计划。本报告代表了开发该项目方法论的第一步。

Isaac Gym:用于机器人学习的高性能基于 GPU 的物理模拟

Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning

Isaac Gym 提供了一个高性能学习平台,可直接在 GPU 上训练各种机器人任务的策略。物理模拟和神经网络策略训练都驻留在 GPU 上,并通过直接将数据从物理缓冲区传递到 PyTorch 张量进行通信,而无需经历任何 CPU 瓶颈。这使得在单个 GPU 上进行复杂机器人任务的训练时间极快,与使用基于 CPU 的模拟器和 GPU 进行神经网络的传统 RL 训练相比,速度提高了 2-3 个数量级。

视觉变换器是否像卷积神经网络一样看?

Do Vision Transformers See Like Convolutional Neural Networks?

到目前为止,卷积神经网络 (CNN) 一直是视觉数据的实际模型。最近的研究表明,(Vision) Transformer 模型 (ViT) 可以在图像分类任务上实现相当甚至更优异的性能。这提出了一个核心问题:Vision Transformer 如何解决这些任务?它们是像卷积网络一样工作,还是学习完全不同的视觉表示?通过分析 ViT 和 CNN 在图像分类基准上的内部表示结构,我们发现这两种架构之间存在显着差异,例如 ViT 在所有层上都有更统一的表示。我们探索了这些差异是如何产生的,发现了自我注意力所起的关键作用,它可以实现全局信息的早期聚合,以及 ViT 残差连接,它可以将特征从较低层强烈

人类学习

Human Learn

机器学习涵盖了很多领域,但它也有可能做出错误的决定。我们也已经达到了炒作的阶段,人们忘记了许多分类问题也可以由自然智能来处理。此软件包包含与 scikit-learn 兼容的工具,这些工具应该可以更轻松地构建和基准测试由人类设计的基于规则的系统。您还可以将其与 ML 模型结合使用。

文字比标签更强大:使用数据编程进行无点画标签的学习

The Word is Mightier than the Label: Learning without Pointillistic Labels using Data Programming

我们分析了 DP 背后的数学基础,并通过将其应用于两个现实世界的文本分类任务来展示它的强大功能。此外,我们将 DP 与传统上在数据稀疏设置中应用的点画主动和半监督学习技术进行了比较。

使用 AlphaFold 进行高精度蛋白质结构预测

Highly accurate protein structure prediction with AlphaFold

AlphaFold 最新版本的基础是一种新颖的机器学习方法,它将有关蛋白质结构的物理和生物学知识,利用多序列比对,融入到深度学习算法的设计中。

基于模型的决策制定,实现自动停车的想象力

Model-based Decision Making with Imagination for Autonomous Parking

自动停车技术是自动驾驶研究中的一个关键概念。本文将提出一种富有想象力的自动停车算法来解决与停车有关的问题。

CARLA:用于对算法追索和反事实解释算法进行基准测试的 Python 库

CARLA: A Python Library to Benchmark Algorithmic Recourse and Counterfactual Explanation Algorithms

CARLA(反事实和追索库)是一个 Python 库,用于对不同数据集和不同机器学习模型中的反事实解释方法进行基准测试。总之,我们的工作提供了以下贡献:(i)对 11 种流行的反事实解释方法进行了广泛的基准测试,(ii)用于研究未来反事实解释方法的基准测试框架,以及(iii)一套标准化的综合评估措施和数据集,用于对这些方法进行透明和广泛的比较。我们在 Github 上开源了 CARLA 和我们的实验结果,使它们可以作为有竞争力的基准。我们欢迎其他研究小组和从业人员的贡献。

告别偏差-方差权衡?过度参数化机器学习理论概述

A Farewell to the Bias-Variance Tradeoff? An Overview of the Theory of Overparameterized Machine Learning

本文简要概述了这一新兴的过度参数化 ML 理论(以下简称 TOPML),从统计信号处理的角度解释了这些最新发现。我们强调了将 TOPML 研究领域定义为现代 ML 理论子领域的独特方面,并概述了仍然存在的有趣开放问题。

如何避免机器学习陷阱:学术研究人员指南

How to avoid machine learning pitfalls: a guide for academic researchers

本文档简要概述了使用机器学习技术时出现的一些常见错误,以及如何避免这些错误。它主要作为研究生的指南,并重点关注学术研究中特别关注的问题,例如需要进行严格的比较并得出有效的结论。它涵盖了机器学习过程的五个阶段:模型构建之前要做什么、如何可靠地构建模型、如何稳健地评估模型、如何公平地比较模型以及如何报告结果